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摘 要 : [目的 /意义 ] 作 者 共 被 引 分 析 是 探索 领域 知识 结构 的 重要 方法 ,在 复杂 的 学 科 发 展 态势 下 ,其 依赖 于 共 被 引 频 次 
的 作者 关联 度 度量 颇具 争议 。 对 此 ,提出 一 种 基于 语义 和 位 置 相似 的 作者 共 被 引 分 析 改 良 方法 。[ 方 法 /过 程 ] 在 
介绍 基本 原理 的 基础 上 ,以 图 情 领 域 为 例 开展 基于 语义 和 位 置 相 似 的 作者 共 被 引 分 析 改 良 方法 的 效果 实证 ,面向 
CNKI 期 刊 库 进行 引文 全 文 挖 气 , 并 对 引用 和 句 及 引用 位 置 进行 抽取 ,结合 预 训练 的 领域 词 谱 入 模型 计算 共 被 引文 
献 间 的 深层 相似 度 和 作者 间 的 关联 强度 ,利用 网 络 分 析 和 因子 分 析 法 对 比 该 方法 与 传统 方法 的 效果 差异 。[ 结 
果 / 结 论 ] 结果 证 明 ,基于 语义 和 位 置 相似 的 作者 共 被 引 分 析 改 良 方法 能 更 准确 地 识别 共 被 引 作者 的 关联 强度 ,可 
发 现 更 为 细致 的 学 科 知 识 结 构 , 并 具有 可 拓展 性 与 可 应 用 性 。 

词 : 作者 共 被 引 分 析 引文 内 容 分 析 共 引 位 置 分 析 全 文本 引文 分 析 领域 知识 结构 
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um Jr ii ( semantic and proximity-based author co-citation a- 
di nalysis, SPACA) ,以 共 被 引 作者 所 在 引用 名 的 内 容 和 
写作 者 共 被 引 分 析 (author co-citation analysis, ACA) 出 现 位 置 的 相似 性 来 度量 作者 间 的 关系 强度 ,以 克服 
是 赤 献 研究 的 主要 分 析 方 法 之 一 ,由 H. D. White 和 | 传统 方法 的 缺点 。 通 过 采集 中 国 知 网 ( CNKI) 期 刊 数 
B.G. Griffith 于 1981 年 首次 提出 。 其 基本 假设 是 : | 据 库 图 情 领 域内 的 文献 全 文 文本 ,开展 该 方法 与 传统 
IMS A 与 作者 B 同 被 文章 C 所 引用 时 , 则 A 与 B 之 | 共 被 引 分 析 方法 ACA 的 对 比 实证 ,探索 这 一 改良 方法 
间 导 共 被 引 联 系 R, 知 A 与 B 同时 被 引用 的 次 数 越 多 ， 的 特点 与 可 应 用 性 ,以 推动 ACA 方法 的 精准 化 革新 。 
则 联系 R 就 越 为 密切 。 在 这 一 方法 假设 下 ,所 有 共 被 dis 
引 的 作者 间 将 具有 某 种 主题 上 的 关联 ,并 在 一 完 范 围 | 2 相关 研究 回顾 


内 呈现 出 明显 的 主题 聚 类 分 布 。 因 此 ,ACA 常用 于 学 近年 来 ,自动 化 文本 处 理 技术 日 趋 成 熟 ,文献 全 文 
科 知 识 结构 的 识别 和 科学 共同 体 的 发 现 ”。 文本 已 逐步 能 以 半 结 构 化 形式 在 数据 库 ( 如 PubMed , 


伴随 着 近年 来 科学 研究 的 推进 和 技术 的 不 断 革 BioMed Central , Citeseer „arXiv 等 ) 中 获取 ,这 些 条 件 使 
新 ,各 学 科 正 快速 交叉 融 汇 ,新 的 研究 领域 不 断 以 难以 | 得 基于 全 文 文本 的 引文 内 容 分 析 应 运 而 生 并 愈 发 受到 
探测 的 方式 悄然 诞生 ,学 者 所 从 事 的 研究 主题 也 愈 发 | 重视 。 这 是 一 种 能 深入 施 引 文献 全 文 ,获取 引用 强度 、 
多 元 ,这 都 对 传统 ACA 方法 提出 了 挑战 。 传 统 方法 仅 | 引用 位 置 . 引 用 功能 .引用 语义 等 微观 的 引文 全 文 内 容 
依赖 于 有 限 的 著录 信息 ,将 基于 共 现 与 否 ( 非 1 即 0) 数据 ,以 量化 计算 引用 所 代表 的 关系 强度 .影响 程度 等 
的 次 数 统计 作为 作者 间 联 系 强度 的 依据 ,这 是 朴素 的 、| 新 型 引文 分 析 方法 。 当 前 国内 外 引文 内 容 分 析 法 研究 


很 具 争 议 的 ,其 忽略 了 共 被 引 作者 间 的 真实 而 深层 | 可 分 两 个 层次 “1: 包含 引用 主题 分 析 " 1、 引用 功能 
的 联系 ,准确 性 、 科 学 性 都 难以 保证 。 Arr 77 、 引 用 范围 识别 ”在 内 的 关注 引用 内 容 


笔者 提出 了 一 种 基于 内 容 语 义 和 位 置 临近 的 ACA | 本 身 的 引用 语义 层次 ,以 及 包含 引用 位 置 分 析 "“"、 
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引用 强度 分 析 “-” 等 在 内 的 关注 引用 内 容 外 在 特征 
的 引用 语法 层次 。 

引文 内 容 分 析 为 传统 的 共 被 引 理论 由 面向 著录 信 
息 深 入 全 文 文本 信息 提供 了 契机 ,许多 学 者 尝试 对 其 
进行 改进 。 其 中 ,一 些 学 者 关注 于 利用 全 文 文本 中 的 
引用 位 置 接近 程度 代 蔡 原 有 的 共 被 引 计数 。 如 A. El- 
kiss, A. Callahan, S. Liu = C. Chen, B. Gipp 与 J 
Beel J. An 等 均 以 不 同 的 方式 证 明了 文档 中 共 被 引文 
献 之 间 的 实际 相似 性 与 它们 在 文本 中 的 接近 程度 有 
关 , 并 提出 利用 引用 临近 索引 (Citation Proximity Index, 
CPI) .引用 章节 相似 性 等 位 置 临近 性 测度 方法 计算 
作者 联系 强度 ,M，Eto op ze 38 7 证 明了 在 


索 歼 果 和 共 被 引 聚 类 的 效果 ,有 利于 进行 深层 次 研 
完 稳 评价 。 另 一 些 学 者 则 关注 引用 句 本身 ,以 词 频 、 
TSDF .LDA „C-Value 等 算法 抽取 引用 名 的 特征 词 或 
其 天 进行 内 容 表 征 和 相似 性 计算 ,如 Y. K. Jeong 


EE 的 不 断 深入 ,一 些 学 者 提出 了 综合 性 的 共 被 引 分 
枚 讽 良 方法 ,其 中 , 刘 盛 博 将 共 被 引 句 根据 位 置 邻近 
魔 划分 为 多 个 级 别 , 通 过 计算 各 级 别 内 共 被 引 句 的 
VERE DUSE ,探寻 位 置 临近 对 共 被 引 内 容 相关 度 的 
影 殉 程度 ,从 而 更 科学 地 确定 引用 位 置 权 重 取 值 P” s 
H»d. Kim 等 则 利用 章节 位 置 构建 细 粒 度 的 作者 共 
wb pe ,对 引用 句 进行 词 频 相 似 度 计算 ,在 PubMed 
数 握 库 中 开展 肿瘤 领域 的 实证 研究 ,取得 较 优 效 
时 起 。 此 外 , 受 全 文 数据 获取 困难 的 影响 ,国内 学 者 
引入 内 容 文本 信息 对 共 被 引 分 析 的 改进 研究 仍 以 利 
用 著录 信息 为 主 ”1。 

正如 Y，Ding 和 赵 获 英 " 所 指出 ,当前 研究 对 
全 文 文本 的 利用 仍 不 够 深入 ,实证 研究 在 国内 尤为 缺 
乏 。 目 前 相关 研究 关注 点 大 都 单一 ,而 对 于 引用 主题 
的 分 析 多 停留 于 引用 句 本 身 的 国定 词 项 频率 、 句 法 结 
构 、 小 范围 概率 模型 ,而 少 有 深入 语义 层面 ,使 得 相关 
的 共 被 引文 献 间 的 联系 仍然 是 浅 层 的 、 基 于 语句 外 在 
寺 征 的 。 此 外 ,相关 研究 较 少 从 作者 层面 出 发 , 相 较 于 
文献 级 ,作者 共 被 引 分 析 更 具 后 期 应 用 价值 ,但 作者 相 
较 于 文献 也 更 为 “多面 ,依赖 引用 次 数 的 关系 强度 易 
造成 作者 间 联 系 揭示 不 准确 , 聚 类 结果 不 理想 的 问题 ， 
因此 ,充分 利用 全 文 文本 信息 对 作者 共 被 引 分 析 进 行 
改良 具有 现实 意义 。 


3 基于 语义 和 位 置 相似 的 作者 共 被 引 分 
析 法 设计 

笔者 提出 的 改良 型 方法 SPACA 充分 利用 了 共 被 
引文 献 所 在 引用 句 的 内 容 语义 信息 和 所 在 章节 位 置信 
息 ,在 此 基础 上 进行 相似 度 计算 ,并 以 作者 文献 集中 的 
最 大 相似 度 值 作为 作者 间 的 相关 强度 值 , 以 此 来 替代 
传统 方法 单一 以 共 被 引 频 次 表征 作者 关联 强度 的 方 
Eo 
3.1 引文 全 文 文本 挖掘 及 抽取 

SPACA 的 实施 需要 的 不 仅 是 著录 信息 ,还 有 被 引 
文献 在 施 引 文献 全 文中 的 所 在 引用 句 文本 信息 和 位 置 
El ,因此 文本 挖掘 与 抽取 工作 是 必须 的 。 

以 CNKI 数据库 提供 的 HTML 全 文 页 面 为 例 , 通 
过 URL 将 页 面 采集 至 本 地 。HTML 页 面 中 包含 有 文 
献 全 文 文本 以 及 大 量 庞杂 的 数据 标签 ,但 半 结 构 化 
的 特征 为 数据 抽取 和 内 容 分 析 提 供 了 可 能 ,通过 编 
制 解 析 器 对 SPACA 所 需 的 数据 进行 抽取 和 存储 。 见 
图 1。 

通过 class_ 为 “sup” 的 <a> 标 签 ,或 type_ 为 “ref- 
erence” 的 < citation > 标签 对 引用 句子 实现 定位 ( 见 图 
1) ,对 引文 位 置 和 引文 内 容 文本 信息 的 提取 方法 如 下 : 

(a) 引 用 位 置信 息 的 抽取 :在 CNKI 现 有 的 HIML 
格式 全 文中 ,主要 以 <h3 > 封装 大 标题 , <h4 > 封装 小 
标题 ,在 引用 标签 定位 基础 上 , 取 父 标签 p > 并 向 前 
遍历 以 发 现 两 种 标签 ,直至 获取 < h3 > 标签 为 止 , 而 
<h4 > 可 省 缺 , 省 缺 时 以 <h3 > 代替 。 获 取 大 标题 和 
小 标题 后 ,就 可 在 生成 共 被 引 对 时 ,判断 两 引用 句 的 位 
置 是 否 接近 ,以 辅助 相关 强度 度量 。 

(b) 引 用 句 文本 信息 提取 :本 研究 采用 的 基本 方 
法 为 ,由 标签 位 置 向 前 、 后 遍历 ,利用 正则 式 进行 判断 ， 
直到 前 邻接 标签 内 容 为 不 超出 段落 范围 的 完整 文本 ， 
再 利用 句号 分 割 文 本 , 取 尾 部 分 作 引 用 名 前 半 段 ;后 半 
段 则 同样 以 邻接 标签 文本 的 “。” 为止 作 抽取 范围 ,从 
而 拼接 成 完整 的 内 容 文本 。 此 外 ,研究 针对 多 种 引用 
标签 格式 .多 种 引用 标签 位 置 小 范围 多 个 引用 等 情况 
都 分 别 编制 相应 的 引用 名 识别 规则 。 

除 以 上 数据 以 外 ,人 研究 也 在 文 后 参考 文献 处 对 被 
引文 献 的 基本 信息 进行 了 提取 ,包括 作者 、 题 名 等 ,并 
筛 除 非 期 刊 的 条 目 。 获 得 每 篇 参考 文献 的 数据 结构 见 
图 2。 
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1 移动 网 络 信息 服务 
1.1 移动 网 络 


«hà3 idz "1" name="1" class="anchor-tag">1 移动 网 络 信息 服务 </h3> 


小 标题 


«h4 classz"anchor-tag" idz "2" namez"2"»1.1 移动 网 络 </h4> 


«div class="p1"> 


<p id="3"> 传 统 上 的 移动 网 络 指 的 是 移动 网 络 运营 商 构建 的 蜂窝 网 络 , 它 是 一 种 移动 通信 硬件 架构 , 分 为 模 


拟 峰 窝 网 络 和 数字 蜂窝 网 络 。 由 于 构成 网 络 覆盖 的 各 通信 基地 台 的 信号 覆盖 呈 六 边 形 ， 从 而 使 整个 网 络 像 一 个 蜂窝 


而 得 名 <sup><aclass="sup"> 目 </a></sSup>。 目 前 ， 移动 网 络 (Mobile Web) 不 仅 指 由 传统 的 电信 运营 商 所 提供 


的 26、3G、4G 以 及 WLAN……</p> 


<pid="3"> 
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BG. 4G 以 及 WULAN……</p> 
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在 数字 化 、 网 络 化 学 术 交 流 环境 下 , 随 着 用 户 信息 需 求 与 行为 的 变化 ,图 书馆 

员 不 再 是 用 户 和 文献 信息 之 间 的 “中介” 而 是 用 户 的 合作 伙伴 ,图 书馆 员 不 单 

是 为 用 户 解决 问题 ,更 多 地 是 嵌入 用 户 环境 ,将 图 书馆 的 专长 转化 为 用 户 的 能 
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5 袖 引 文献 名 谋 入 式 图 书馆 服务 的 理论 突破 

所 在 大 标题 3 高 校 图 书馆 专利 信息 服务 模式 

看 号 用 所 在 小 标题 3. 3 嵌入 科研 全 过 程 的 专利 信息 服务 模式 
请 引文 献 名 高 校 图 书馆 专利 信息 服务 内 容 、 模 式 与 趋势 


SC 图 2 被 引文 献 存 储 结构 示意 


DI 基于 领域 语 料 的 词 嵌 入 模型 训练 

本 文 涉及 引用 句 间 的 内 容 相似 度 计算 ,需要 适当 
的 自然 语言 处 理工 具 提供 词 表示 支持 。 以 往 涉及 引用 
内 容 文本 相似 性 计算 的 研究 ,多 采用 以 固定 词 项 为 音 
位 的 词 表示 法 ,如 直接 利用 独 热 编 码 (one-hot code ) 的 
词 表示 . 词 频 - 逆 文 档 频 率 (TF-IDF) 特征 词 抽取 法 等 ， 
这 些 方法 虽 简便 ,但 词义 和 词 形 的 割裂 造成 了 两 种 问 
题 :一 是 宛 长 的 词 维度 带 来 的 “维度 灾难 ”, 二 是 无 法 
适应 现实 中 领域 术语 概念 多 样 的 表达 方式 。 另 一 部 分 
研究 采用 以 LDA .PLSA 为 代表 的 语言 概率 主题 模型 ， 


。 由 于 构成 网 络 笋 蓝 的 各 通信 基地 台 
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<p id="3"> ,目前 ， 移 动 网 络 (Mobile Web) 不 仅 指 由 传统 的 电信 运营 商 所 提供 的 2G、 


1 内 容 与 位 置 数据 抽取 示意 


念 性 ,并 兼顾 表示 学 习 过 程 的 效率 与 易 拓展 性 ,笔者 选 
Jit Word2 Vec 词 杠 入 模型 进行 基于 专业 语 料 的 预 训练 
建 模 。Word2Vec 是 一 种 从 大 量 文本 语 料 中 以 无 监督 
的 方式 学 习 语义 知识 的 浅 层 神经 网 络 语言 模型 ,其 基 
本 方法 由 T.， Mikolov 等 提出 ,目前 被 大 量 应 用 于 自然 
语言 处 理 领 域 ”” 。 其 包含 CBOW 和 Skip-gram 两 种 
模式 ( 见 图 3) ,其 基本 原理 是 ,对 语 料 中 某 一 词语 与 上 
下 文 窗口 内 词语 间 的 联系 进行 建 模 , 通 过 面向 低 维 向 
量 空间 的 映射 ,建立 起 每 个 词 与 相关 词 间 的 稠密 向 量 
联系 ,实现 高 效 、 高 质量 的 词 向 量 训练 和 优化 。 相 
比 基 于 词 频 的 传统 向 量 空间 模型 ,Word2Vec 模型 最 大 
的 特点 是 学 习 了 词 与 词 的 发 生 语 境 联系 。 这 一 特性 可 
以 保证 相似 性 度量 的 可 靠 性 ,使 得 词语 不 仅 限于 词语 
本 身 ,而 是 与 相关 词语 保持 着 主题 上 的 相关 , 即 语 境 其 
至 语义 上 的 关联 '*。 

Word2 Vec 模型 的 质量 建立 在 充分 的 语 料 训练 基 
础 上 ,这 些 大 规模 专业 语 料 可 来 源 于 目标 领域 的 全 文 
文本 ,在 经 过 基于 领域 文献 关键 词 的 定制 化 分 词 与 预 
处 理 后 用 于 模型 训练 ,以 学 习 领 域 词汇 在 语义 与 语 境 


可 建立 起 词 文档 主题 或 潜在 语义 联系 ,但 在 面 对 庞 
大 的 文本 总 量 时 ,将 产生 昂贵 的 计算 代价 ,这 一 问题 对 
于 常见 的 神经 网 络 模型 Text RNN Text CNN,BiLSTM 
等 也 同样 存在 。 上 述 缺 点 限制 了 以 往 改 良 方法 的 可 用 
性 和 拓展 性 。 

为 使 研究 使 用 的 词 分 布 式 表示 更 具 语 义 内 涵 和 概 


层面 的 权重 向 量 。 由 于 Skip-gram 对 低频 词 过 于 敏感 ， 
训练 采用 由 窗口 词 共 同 对 中 心 词 预测 并 作 共 同 权 重 调 
整 的 CBOW 模式 。 训 练 形成 模型 效果 如 图 4 所 示 ,对 
于 该 模型 , 当 输 入 “学 科 化 服务 ”这 一 词汇 时 ,可 获得 
与 该 词语 义 或 语 境 相关 性 最 大 的 部 分 词 ,如 “学 科 服 
务 ”“ 骼 入 式 学 科 服 务 "“ 学 科 馆 员 ”“ 知 识 服 务 "“ 学 科 
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wt-2) wt-2) 


w(t—1) w(t-1) 


witel) 
LL 


w(t+2) 


CBOW Skip-gram 


3 Word2Vec 两 种 不 同 模式 的 基本 原理 '*”! 
知识 ”等 ,这 意味 着 即便 撰写 者 在 两 个 句子 中 应 用 了 相 
同 内 涵 不 同形 式 的 词汇 , 仍 能 通过 模型 准确 判断 两 个 
句子 的 相似 性 。 


In [260]: model.wv.most_similar( 学 科 化 服务 ) 
Out[260]: 

[( 学 科 服 务 , 0.6190181374549866), 
(学 科 馆 员 ', 0.5274513363838196), 
(HARFA, 0.4600890278816223), 
(知识 服务 , 0.45528456568717957), 
(信息 服务 , 0.4238835871219635), 
(服务 , 0.4038962125778198), 

(知识 化 , 0.39131593704223633), 
(SEN, 0.38776373863220215), 
(学 科 知 识 , 0.3837777078151703), 

(教学 科研 , 0.3796292841434479)] 


图 4 Word2Vec 模型 效果 示意 
3.39 作者 共 被 引 关系 强度 算法 

<SPACA 作者 相关 强度 算法 综合 考虑 了 共 被 引 作 
AR 5 B 的 每 一 对 共 被 引文 献 ay(M 21,2, 0) 和 
bres v -1,2,:-,n) 的 内 容 相 似 度 Content. similarity 


© 1,(P 


:202304.00263v1 


P. Weight(a,, by) e pos(x,y) = 


为 对 Pp 5 q 的 取 值 进行 调 优 ,笔者 进行 了 引用 位 
置 与 内 容 相 似 度 的 相关 性 探索 :将 实验 全 文 数 据 中 的 
177 617 条 共 被 引 对 数据 按 临近 度 划 分 为 文章 级 、 章 节 

级 .小 节 级 类 型 (TYPE ) ,并 对 每 对 共 被 引 对 的 内 容 相 
似 度 进行 基于 词 伐 入 模型 的 计算 ,获得 相似 度 值 
(SIM) 。 由 于 SIM 值 不 属 正 态 分 布 ,但 具有 方差 齐 性 ， 
故 采 用 Welch-Anova 和 非 参数 检验 法 Kruskal-wallis- 
Anova ,并 进行 多 重 比较 。 结 果 显 示 , 各 组 数据 间 分 布 
相同 的 显著 性 远 小 于 0.05( 见 图 5) ,而 非 参数 检验 P 
<0.05( 见 图 6) , 即 不 同位 置 级 别 的 共 被 引 对 在 SIM 
值 分 布 上 存在 差异 。 

由 表 1 可 知 , 当 邻 近 度 由 文章 级 提升 至 大 章节 级 


(Caw,bv) 和 被 引 位 置 相似 度 权 重 P_Weight(av,pbv)( 见 
式 1) ,并 取 A 与 B 在 共 被 引文 献 集中 产生 的 最 大 相似 
度 作为 两 者 的 相关 强度 ( 见 式 2) ,以 表征 作者 间 可 能 
产生 的 最 大 相关 联系 。 
Similarity( ay, by) = P. Weight(a,,b,) * Content 
式 (1) 
Relevance( A, B) = max | Similarity ( a, ,b,) | 


similarity ( ay , b, ) 


XQ) 
QD 在 内 容 相 似 度 Content, similarity (ay , b, ) 的 计算 
中 ,利用 了 预 训练 获得 的 词 骨 入 向 量 和 余弦 相似 度 算 
法 。 基 本 原理 是 对 ay 与 by 所 在 引用 句 x 与 y 内 分 别 
包含 的 各 词汇 进行 所 含 i 维权 重 问 量 的 车 加 ,构成 句 
THEW, RIW, OLR 3) ,并 作 夹 角 余弦 值 计算 ,以 量 
化 测算 内 容 相似 度 ( 见 式 4)。 此 外 , 当 内 容 相 似 度 过 
低 (小 于 0.2) 时 ,将 舍弃 此 相似 度 值 ( 置 0) ,以 排除 无 
联系 的 引用 句 对 的 干扰 。 
Wanene = Xp word, (uai, ,e100 ) 
其 中 sentence = | word, , --- 


zx) 
_ similarity (ay, by) = cos (W,, W, ) = 
EWW, 
"PRIME. 

@ 在 被 引 位 置 相似 度 权重 P_Weight(av,bv) 的 计 
算 中 ,采取 以 下 算法 : 当 两 处 被 引发 生 于 同一 章节 下 时 
权重 系数 为 p, 知 进而 发 生 于 同一 小 节 下 则 再 乘 权重 
系数 q( 式 5) , 若 均 不 同 则 权重 为 1, 进而 利用 位 置 权 
重 对 内 容 相 似 度 进行 加 权 。 


, word, | 


Content 


式 (4) 


chap. (2) PLU) € P. UO AP QJ 
p, (Po Pas) P, VP, 
p* q, (Pu (x) = 


. (7) ) 式 (5) 


Pi, (V) & P, (x) «P, y) 


Multiple Comparisons 
Page Variable SIM 


Games-Howell 
PE 9596 Confidence Interval 


Mean 
guid 小 
à DEBE onre 
-041134 001155 000 -.04384 -.03843 
-.104503 001634 000 -.10833 -.10067 


30 -.063369 001676 000 -.06730 -.05944 
uEEE 
063369 122 944 06730 


* The mean difference is significant at the 0.05 level 


5  Welch-Anova 多 重 比较 结果 


和 小 章节 级 ,中 低 相 似 ( <0.5) 的 共 被 引 对 数量 占 比 
H 48. 8096 降低 到 了 42.64% 和 31.816% ,文本 平均 相 
似 度 累 积 提高 了 8.48% 和 21.55% ， 即 邻近 度 每 提升 
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Hypothesis Test Summary 


Null Hypothesis Sig. Decision 


Independent- 


4 The distribution of SIM is the sameGamples 


Kruskal- 
Wallis Test 


across categories of TYPE. 


Asymptotic significances are displayed. The significance level is .05. 


El6 非 参 数 检验 结果 


一 级 ,平均 相似 度 约 提升 为 上 一 级 的 1.1 倍 。 综 上 ,可 
以 得 出 结论 : 3 种 位 置 级 别 内 的 共 被 引 对 的 相似 度 存 
在 差异 ,处 于 逻辑 结构 上 更 小 范围 的 共 被 引 对 ,有 更 少 
内 容 不 相关 的 可 能 ,而 倾向 于 更 高 的 内 容 相似 性 。 参 
考 位 置 邻近 度 提升 带 来 的 相似 度 变化 倍率 ,可 将 参数 
p 与 q 均 近似 设 为 1.1。 


R1 三 组 数据 基本 情况 表 


位 置 类 型 数量 标准 偏差 中 位 数 "uos. due Dol CR 
文章 级 85 166 0.225 0. 507 48. 8096 0.485 0. 0096 1 
大 章节 级 68 108 0.224 0.544 42.64% 0.526 8. 48% 1.085 
小 节 级 24 343 0.225 0.611 31. 8296 0. 589 21.55% 1.120 
Total 177 617 0.228 0.536 44. 1196 0.515 - 一 


与 相关 研究 比较 ,笔者 提出 的 SPACA 方法 具 以 下 
两 命 主 要 特点 :一 是 SPACA 方法 利用 基于 领域 语 料 的 
Word2 Vec 浅 层 神经 网 络 模型 建立 了 领域 词 间 的 语义 
砚 王 卉 关联 ,以 此 计算 引用 句 间 的 内 容 相似 度 , 而 不 是 
基于 作者 共 现 与 否 .固定 词 项 或 小 范围 内 的 主题 概率 ， 
便 证 作者 问 联系 强度 的 可 靠 性 以 及 该 方法 在 复杂 领域 
网 的 应 变性 ;二 是 综合 利用 了 引用 发 生 的 位 置 和 主题 
两 种 全 文 信息 ,以 加 权 的 形式 融合 ,综合 表征 作者 间 的 
关系 强度 ,使 关系 强度 计算 时 考虑 要 素 更 为 多 元 ,保证 
秀 法 投入 应 用 时 的 稳定 性 。 


ACA 和 SPACA。 在 对 作者 相关 强度 进行 不 同 的 计算 
后 ,分 别 构建 作者 共 被 引 和 矩 阵 。 在 此 基础 上 ,利用 网 络 
分 析 和 因子 分 析 进 行 和 矩阵 数据 的 直观 呈现 ,最 后 对 产 
生 结 果 进 行 对 比 和 讨论 。 
4.2 实验 方法 及 过 程 
4.2.1 实验 数据 来 源 

实验 数据 来 源 为 CNKI 中 文 期 刊 数据 库 ,初始 时 间 
窗 设 定 为 国内 图 情 领 域 近 10 年 的 研究 。 在 范围 选 定 
上 ,使 用 该 库 的 文献 分 类 目录 ,将 主题 范围 框 定 在 信息 
科技 下 的 "图书 情报 与 数字 图 书馆 ” ,时间 范 围 定 位 于 近 
10 年 (2009 -2019 年 ) ,将 期 刊 级 别 限 定 在 “SCI 来 源 期 
刊 “EI 来 源 期 刊 "“ 核 心 期 刊 “CSSCI”“CSCD” 几 类 提 


“三 为 进行 SPACA 的 效果 实证 ,探究 其 在 复杂 学 科 中 
的 加 应 用 性 ,笔者 设计 了 对 比 实验 ,以 比较 SPACA 与 传 
统 方法 的 效果 差异 ,这 种 效果 主要 体现 在 :四 对 作者 间 
联系 揭示 的 准确 度 ;@ 对 学 科 中 领域 结构 的 识别 程度 。 
向 这 一 目标 ,笔者 将 实验 领域 设 定 为 国内 图 情 
学 科 , 这 出 于 两 点 考虑 :其 一 ,图 情 学 科 作为 交叉 性 很 
强 的 学 科 , 学 者 分 布 复杂 , 选 定 这 类 难度 较 大 学 科 更 易 
于 显现 两 种 方法 分 析 效 果 的 不 同 ;其 二 ,图 情 学 科 不 同 
于 基础 科学 学 科 , 其 专业 术语 缺乏 如 MeSH 等 词 表 限 
定 , 具 多 面 性 .多 变性 的 特点 ,在 国内 环境 下 更 是 如 此 ， 
在 这 样 的 领域 进行 对 比 实验 ,更 能 证 明 这 一 方法 的 可 
应 用 性 和 可 拓展 性 。 
4.1 实验 流程 概览 

流程 框架 见 图 7。 首 先 利用 采集 器 从 数据 源 收集 
在 线 全 文 页 面 的 URL, 并 下 载 HTML 页 面 至 本 地 数据 


供 的 核心 目录 中 。 仅 选取 每 年 被 引 量 排行 前 500 名 的 
文献 ,这 是 因为 高 被 引文 献 的 质量 相对 较 高 ,对 于 被 引 
作者 价值 的 体现 也 更 具 说 服 力 。 其 中 2019 Eh FES 
时 间 较 近 , 仅 取 前 142 篇 (被 引 在 2 KAE) o 

在 充分 遵循 CNKI 库 访 问 规则 与 负载 量 的 基础 
上 ,利用 数据 采集 工具 和 Python 编制 网 页 采集 规则 ,对 
2009 - 2019 年 间 图 情 领 域 核心 期 刊 中 的 高 被 引 论文 进 
行 在 线 全 文 HTML 页 面 的 URL 采集 ,计划 采集 5 142 
条 ,排除 不 支持 HTML 的 文献 ( 占 比 约 9% ) ,共有 采集 条 目 
4 664 条 ( 见 图 8) ,通过 脚本 将 HTML. 页 面 下 载 至 本 地 。 
4.2.2 ”数据 抽取 及 共 被 引 和 矩阵 构建 
利用 脚本 对 HTML 页 面 解析 后 ,提取 每 条 被 引文 
献 的 基本 著录 信息 、 引 用 名 文本 信息 、 引 用 位 置信 息 
(参见 3.1 节 ) ,最 终 获 得 共计 23 572 条 被 引文 献 条 目 
( 见 图 9)。 其 中 ,对 ACA 仅 提 供 基 本 著录 信息 ,如 引 
用 号 、 被 引 作者 、 被 引文 献 名 ;而 对 SPACA 提供 所 有 信 


库 。 利 用 解析 器 提取 全 文 文本 信息 ,被 引文 献 基 本 信 
息 .引用 句 文本 和 位 置信 息 , 将 相应 信息 分 别传 送 给 


A ,并 以 文献 库 中 所 有 文本 语 料 训练 而 成 的 Word2 Vec 
模型 提供 语义 相关 支持 (参见 3.2 节 ) 。 
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1 研究 综述 


图 9 被 引文 献 存储 库 示意 


基于 该 文献 库 , 在 排查 重 名 作者 后 ,面向 第 一 作 
者 ,为 ACA 和 SPACA 分 别 构 建 作者 共 被 引 和 矩阵 ,对 于 
ACA 矩阵 ,作者 相关 强度 取决 于 两 者 在 文献 集中 的 总 
共 现 次 数 ; 对 于 SPACA ,以 基于 语义 和 位 置 相 似 的 共 被 
引文 献 相 似 度 的 最 大 值 作为 作者 相关 强度 。 最 后 , 形 
成 共 10 684 个 作者 节点 ,132 267 对 ACA 共 被 引 作者 
对 和 118 388 对 SPACA 共 被 引 作者 对 。 
4.2.3 网 络 分 析 

利用 可 视 化 网 络 分 析 有 助 于 直观 了 解 学 科 内 作者 
的 分 布 情况 .学科 知识 结构 ,比较 两 种 ACA. 方法 的 效 
果 差 异 。 选 用 Gephi 为 工具 ,以 作者 作为 节点 (node) , 


以 作者 间 的 相关 联系 为 边 (edge) ,以 相关 强度 计算 结 
果 为 边 权 (edge weight) 。 

在 网 络 分 析 中 ,将 参与 分 析 的 节点 的 被 引 频次 阐 
值 设置 为 2。 这 是 因为 低频 引用 (被 引 频 次 <1) 节 点 
在 过 去 10 年 仅 被 利用 1 次 ,无 法 保证 该 次 利用 的 可 靠 
性 , 且 它 们 的 数量 占 比 很 高 (为 65.26%), 达 6 973 个 
节点 ( 见 图 10) ,对 网 络 分 析 干 扰 较 大 , 故 吻 除 。 

为 进一步 探测 作者 共 被 引 网 络 中 的 分 布 规律 与 聚 
类 情况 ,笔者 利用 Louvain 模块 化 算法 。 这 一 算法 
的 基本 思想 是 ,对 网 络 中 的 每 一 点 都 利用 边 权 进行 与 
相近 节点 的 聚 类 ,并 多 次 迭代 直到 网 络 模 块 度 ( modu- 
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larity) 不 再 提升 为 止 ,对 于 大 型 网 络 而 言 , 其 具有 高 效 、 
较 高 精度 的 特点 。 
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节点 被 引 频次 
10 各 被 引 频次 节点 数量 分 布 


Ad ”因子 分 析 
全 在 网 络 分 析 基 础 上 ,利用 因子 分 析 挖掘 作者 与 领 
i 域 与 领域 间 的 相关 性 ,并 验证 网 络 分 析 结 果 。 因 
析 是 一 种 对 潜在 变量 因子 进行 探测 的 降 维 方法 ， 
4 . E 
zn. 
中 笔者 选取 被 引 频 次 大 于 15 次 的 127 位 作者 为 因 
析 的 对 象 。 对 于 因子 分 析 的 输入 数据 ,为 降低 过 
天 的 数值 差距 及 过 多 零 值 对 结果 的 干扰 ,研究 将 两 种 
鸭 尖 = 生 的 作者 共 被 引 和 矩阵 均 转化 为 基于 标准 化 欧 几 
里 得 距离 ( euclidean distance ) 的 相 异 度 和 矩阵 (dissimilar- 
ity fnatrix) 。 在 观察 两 种 方法 的 公 因子 总 方差 解释 情 
况 固 特征 值 碎 石 图 的 基础 上 ,抽取 特征 值 (eigenval- 
ULKE V 的 公 因子 ,鉴于 各 因子 间 存 在 低 相关 性 , 族 
选 呆 直接 斜 交 转轴 法 人 direct oblimin rotation ) 对 结果 进 
行 旋转 ,以 获得 更 具 可 解释 性 的 因子 模式 矩阵 及 载荷 
分 布 结果 。 
4.3 ”实验 结果 
4.3.1 网 络 分 析 结 果 
为 使 输出 网 络 图 更 清晰 可 读 ,笔者 以 相同 标准 对 
两 方法 进行 过 滤 。 过 滤 规 则 包括 :在 模块 化 后 ,过 滤 
不 成 形 的 模块 , 即 含 节点 占 总 数 1% 及 以 下 或 内 部 被 
引 频 次 大 于 15 次 的 核心 节点 数 不 足 2 个 ,以 排除 引用 
只 发 生 于 有 限 的 小 众 研究 主题 或 机 构 小 范围 内 的 情 
况 , 保 证 效果 图 的 可 读 性 。 在 此 条 件 下 ,获得 网 络 图 中 
的 主要 模块 : ACA 获得 了 7 个 模块 ,节点 总 数 3 005 
个 , 占 总 数 比 为 80.98% ,SPACA 获得 了 12 个 模块 , 节 
点 数 为 3 209 个 , 占 节点 总 数 比 为 86.47% ; DRIM K- 
brace 算法 ,对 两 端 节点 共同 邻居 节点 不 足 K=10 
的 边 进行 剪 枝 , 并 调整 边 权重 闵 值 ,使 网 络 输出 简洁 。 


经 上 述 过 滤 映 射 , 形 成 图 11、 图 12 所 示 的 ACA 输 
出 网 络 图 和 SPACA 输出 网 络 图 。 其 中 ,ACA 输出 网 络 
含 1529 个 节点 和 3 156 条 边 ,SPACA 输出 网 络 含 1 
502 个 节点 和 2 685 条 边 。 初 步 观察 网 络 图 ,在 相同 的 
布局 算法 OpenOrd + ForceAtlas2 的 作用 下 ,SPACA 的 
输出 网 络 图 (模块 度 0.793 ) 相 比 ACA( 模 块 度 0. 697 ) 
在 聚 类 分 布 上 更 集中 , 复 的 辨识 度 更 好 。 


11 传统 作者 共 被 引 分 析 - 输出 网 络 示意 


1 基于 语义 与 位 置 相似 的 作者 共 被 引 
分 析 一 一 输出 网 络 示意 


为 对 各 模块 展开 深入 研究 ,对 ACA 和 SPACA 所 
产生 的 聚 类 结果 进行 特征 提取 。 特 征 词 提 取 工 作 流 程 
围绕 每 一 模块 内 两 端 节 点 均 属 该 模块 的 边 而 展开 ,这 
些 边 中 包含 了 被 引文 献 对 的 标题 与 引用 句 。 这 种 策略 
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的 优点 是 能 准确 提取 到 模块 形成 过 程 中 的 支持 性 语 
料 ,使 模块 特征 词 提 取 更 准确 。 特 外 
了 TF-IDF( TD ) 算 法 和 TextRank (TR ) 算 法 ,并 分 别 从 
特征 值 最 高 的 10 个 词 中 筛选 产生 。 由 于 引用 句 较 短 ， 


E 词 提取 主要 应 用 


LDA 与 LSA 方法 的 效果 并 不 理想 , 故 并 未 采用 。 


结合 特征 词 提取 结果 和 对 模块 内 包含 语 料 的 人 工 


表 2 ACA 模块 信息 表 ( 剪 枝 前 ) 


检验 ,归纳 出 各 模块 的 主题 ,并 对 两 种 方法 中 包含 作者 
相似 特征 词 构成 相似 的 模块 标 以 相同 ID. 号 ,形成 了 
模块 信息 表 ( 见 表 2 和 表 3) 和 主题 对 比 表 ( 见 表 4)。 
需 注意 的 是 ,此 处 的 节点 数 和 边 数 量 是 未 进行 过 滤 、 前 
枝 的 , 即 每 一 模块 所 真实 含有 的 。 


编号 节点 数量 边 数 量 。 特征 词 提 取 法 关键 词 主题 
A 610 5272 TD 阅读 推广 公共 图 书馆 活动 阅读 疗法 文化 到 书馆 管理 研究 
TR 阅读 推广 公共 图 书馆 高 校 图 书馆 阅读 疗法 数字 阅读 
D 227 159 9 TD 竞争 情报 产业 情报 大 数据 情报 学 情报 学 理论 与 技术 
TR 竞争 情报 情报 大 数据 产业 情报 学 
C 595 550 1 TD 网 络 文献 领域 关键 词 学 科 科学 计量 与 信息 计量 
TR 知识 图 谱 关键 词 文献 网 络 可 视 化 
TB 295 340 9 TD 智慧 图 书馆 智慧 技术 大 数据 智慧 服务 智慧 图 书馆 及 新 技术 应 用 
2 TR 智慧 图 书馆 大 数据 智慧 服务 物 联网 RFID 
e 713 5728 TD 高 校 图 书馆 资源 科研 创 客 空间 知识 服务 研究 图 书馆 数据 与 知识 服务 
N TR 高 校 图 书馆 知识 服务 学 科 服务 信息 素养 数据 管理 
e 383 398 0 TD 信息 情境 移动 图 书馆 用 户 微 信 移动 图 书馆 与 移动 服务 
e TR 情境 移动 图 书馆 信息 用 户 微 信 
"d 182 1621 TD 智库 服务 建设 高 校 图 书馆 社 科 院 智库 与 智库 研究 
OO TR 智库 高 校 图 书馆 服务 建设 用 户 画 像 


2 


表 


3 SPACA 模块 信息 表 ( 剪 枝 前 ) 


Cue TAXE Wae ”特征 词 提 取 法 关键 词 主题 
- 336 2533 TD 竞争 情报 情报 学 关联 数据 产业 大 数据 情报 学 理论 与 技术 
n TR 竞争 情报 情报 学 大 数据 关联 数据 分 析 
>< 399 266 2 TD 公共 图 书馆 建设 总 分 创 客 空间 文化 图 书馆 管理 研究 
© TR 公共 图 书馆 创 客 空间 建设 文化 服务 体系 
S 490 424 6 TD 网 络 知识 图 谱 文献 领域 关键 词 科学 计量 与 信息 计量 
E am TR 知识 图 谱 关键 词 网 络 文献 可 视 化 
@ 3 252 1610 TD 数据 管理 高 校 图 书馆 服务 数据 素养 PHE 研究 型 图 书馆 信息 与 数据 素养 .数据 管理 
TR 高 校 图 书馆 数据 管理 数据 素养 科研 信息 素养 
B 389 390 9 TD 智慧 图 书馆 智慧 服务 大 数据 技术 用 户 智慧 图 书馆 与 新 技术 应 用 
TR 智慧 图 书馆 大 数据 智慧 服务 知识 服务 物 联网 
E-1 175 904 TD 知识 服务 云 计 算 高 校 图 书馆 资源 数字 图 书馆 知识 服务 与 技术 
TR 知识 服务 高 校 图 书馆 云 计 算 数字 图 书馆 用 户 
Pl 205 228 6 TD 情境 移动 图 书馆 用 户 场景 模型 移动 图 书馆 服务 与 技术 
TR 情境 移动 图 书馆 数字 图 书馆 服务 模型 
A-1 267 2719 TD 阅读 推广 阅读 疗法 高 校 图 书馆 数字 阅读 儿童 阅读 推广 研究 
TR 阅读 推广 高 校 图 书馆 阅读 疗法 活动 公共 图 书馆 
E-4 113 136 9 TD 放 存 取 期 刊 OA 机 构 知 识 库 质量 放 获 取 研 究 
TR 放 存 取 期 刊 OA 机 构 知 识 库 模式 
E-2 303 198 1 TD 学 科 服 务 用 户 学 科 馆 员 高 校 图 书馆 信息 素养 高 校 与 研究 图 书馆 学 科 服 务 
TR 学 科 服 务 高 校 图 书馆 学 科 馆 员 信息 素养 模式 
F-2 162 1224 TD 微 信 高 校 图 书馆 传播 影响 力 微 信 服务 新 媒体 行为 与 服务 研究 
TR 微 信 公众 高 校 图 书馆 传播 阅读 推广 
D-1 118 136 7 TD 智库 高 校 图 书馆 社 科 院 竞争 情报 决策 智库 与 智库 研究 
TR 智库 高 校 图 书馆 竞争 情报 信息 服务 决策 
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表 4 ACA 5 SPACA 识别 模块 主题 对 比 


ID ACA SPACA 
A 图 书馆 管理 研究 图 书馆 管理 
(包括 制度 \ 阅 读 推广 等 ) (包括 制度 、 服 务 等 ) 


A-1 阅读 推广 研究 
B 智慧 图 书馆 与 新 技术 应 智慧 图 书馆 与 新 技术 应 用 


un 


科学 计量 与 信息 计量 科学 计量 与 信息 计量 
D 情报 学 与 情报 技术 情报 学 与 情报 技术 
D-1 智库 研究 智库 研究 
E ”研究 图 书馆 数据 与 知识 服务 
E 知识 服务 与 技术 
E -2 研究 图 书馆 学 科 服 务 
E-3 研究 图 书馆 信息 与 数据 素养 研究 
E-4 开放 获取 研究 
F 移动 图 书馆 与 新 媒体 
FF 移动 图 书馆 服务 与 技术 
r >> 新 媒体 行为 与 服务 研究 
(通过 观察 和 对 比 两 种 方法 所 识别 模块 的 网 络 输出 
CN 
e 
e 
er 
e 
co 
CN 
O 
N 
2 
© 
c 
Y = 
Q 
ACA 下 模块 
移动 图 书馆 与 新 媒体 


\ 模 块 关键 词 主题 情况 ,节点 数量 情况 ,笔者 发 现 两 
种 方法 产生 的 一 些 模 块 是 相似 的 ,如 以 印 均 平等 为 代 
表 的 C 模块 “科学 计量 与 信息 计量 ”以 王 世 伟 等 为 代 
XB B 模块 智慧 图 书馆 与 新 技术 应 用 " 。 此 外 ,研究 
发 现 以 下 要 点 : 

(1) 一 些 在 ACA 中 包含 于 同一 模块 的 关键 词 ,在 
SPACA 中 被 划 归 至 了 两 个 或 多 个 模块 中 。 典 型 的 例 
子 包 括 ACA 中 的 了 上 模块 “移动 图 书馆 与 移动 服务 ” 
(383 个 节点 ) ,其 包含 有 的 “移动 图 书馆 ”“ 微 信 ”“ 公 
众 ” 等 词 被 分 别 划 归 入 了 SPACA 的 了 -1 移动 图 书馆 
服务 与 技术 (205 个 节点 ) 和 下 -2 新 媒体 行为 与 服务 
研究 (162 个 节点 ) 模 块 下 ,联系 网 络 输出 图 中 的 局 部 
例证 (如 图 13 所 示 ) ,发 现 作者 的 迁移 也 同样 印证 了 
这 种 细 分 的 变化 。 经 证 实 , 如 和 孔 云 . 王 保 成 等 作者 ， 
相 比 于 移动 图 书馆 ,更 倾向 于 新 媒体 行为 与 服务 的 
研究 。 


SPACA F-2 模 块 
新 媒体 行为 与 服务 研究 


SPACA F-1 模 抉 
移动 图 书馆 服务 与 技术 


13 ”模块 细 分 例证 


SPACA 方法 产生 的 上 述 细 分 情况 ,使 这 类 较 新 、 
与 某 一 领域 关系 密切 却 又 自 具 特点 的 领域 更 易 被 发 
现 ,对 这 些 发 生 细 分 变化 的 领域 进行 阴影 标注 ,形成 具 
有 拓扑 联系 的 网 络 输出 图 (如 图 14 所 示 )。 除 了 模块 
外 ,笔者 还 发 现 : 中 研究 型 图 书馆 服务 下 的 各 类 型 方向 
被 细 分 :以 张晓林 为 代表 的 EE-1“ 知 识 服务 与 技术 ”人 研 
究 、 初 景 利 为 代表 的 E -2“ 学 科 化 服务 "研究 、 孟 祥 保 
和 司 莉 为 代表 的 上 -3“ 信 息 与 数据 素养 .科研 数据 管 
理 " 研 究 、 陈 传 夫 等 为 代表 的 EK-4“ 开 放 获 取 ” 研 究 从 
E 模块 中 被 细 分 ;名 以 范 并 思 、 王 波 为 代表 的 A -1 BE 
块 “ 阅 读 推广 ”, 从 关系 极为 密切 的 A 模块 “图 书馆 管 


理 ”" 这 一 涉及 图 书馆 业务 研究 的 主 领 域 中 被 分 离 出 来 。 
以 上 现象 均 说 明了 ,SPACA 能 使 共 被 引 作者 在 共 被 引 
句 的 内 容 和 位 置 层 面 ,建立 起 更 细 粒 度 的 联系 。 

(2) 一 些 在 ACA 中 识别 不 准确 的 节点 ,在 SPACA 
中 被 矫正 并 移入 了 更 恰当 的 作者 群 。 典 型 例子 包括 : 
原 属 上 模块 “研究 图 书馆 数据 与 知识 服务 ”的 作者 柯 
平 、 吴 建 中 ,在 SPACA PHAT A 模块 “图 书馆 管 
理 ” ,经 查证 ,两 位 作者 主要 从 事 图 书馆 事业 、 图 书馆 评 
估 、 图 书馆 管理 转型 方面 研究 ,更 偏向 于 公共 图 书馆 研 
究 , 这 说 明 他 们 在 SPACA 中 所 归属 的 模块 更 为 准确 。 
在 对 相关 的 引用 句 对 查考 后 发 现 , 柯 平 、 吴 建 中 两 位 作 
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A" 14 ”对 细 分 结果 阴影 标注 的 SPACA 输出 网 络 


着 合 张 晓 林 . 初 景 利 等 作为 知名 学 者 , 常 在 知识 服务 、 

获取 等 话题 中 因 某 些 权威 定义 或 理论 而 被 共同 引 
用 这 使 得 这 4 位 学 者 间 共 被 引 频 次 较 高 ,最 高 共 被 引 
ORG 52 次 ,导致 以 频次 为 边 权 的 ACA 将 这 4 位 研 
唐 高 域 有 一 定 差异 的 学 者 误 归 为 同一 模块 ( 见 图 15)， 
造 碟 了 聚 类 误差 。 这 在 SPACA 中 得 到 了 解决 , 柯 平 、 

中 所 从 事 的 研究 领域 与 另 两 位 作者 存在 内 容 上 的 
差别 ,如 图 16 所 示 , 吴 建 中 与 初 景 利 的 边 权重 仅 6.30 
(为 放 便 比较 , 边 权 重 值 统一 放大 10 倍 ) , 柯 平 与 初 景 
利 艳 边 权重 约 为 8.4 ,而 吴 建 中 与 柯 平 间 的 边 权 重 达 
到 11.89, 这 形成 了 吴 、 柯 两 位 作者 间 的 凝聚 及 与 男 
两 竹 作 者 间 的 分 隔 , 此 外 ,SPACA dE SE UBI HB T 
两 径 作 者 间 的 不 同 。 这 说 明 考 虑 语义 与 位 置信 息 的 作 
者 四 被 引 分 析 更 为 准确 ,能 纠正 ACA 所 形成 网 络 布局 
的 不 合理 之 处 。 


15 ACA 展现 的 作者 联系 示例 


4.3.2 ”因子 分 析 结果 
在 对 127 名 主要 作者 进行 的 因子 分 析 中 ,对 于 特 
征 值 大 等 于 1 的 条 件 ,ACA 提取 到 了 9 个 公 因子 ,总 解 


图 16 SPACA 展现 的 作者 联系 示例 


释 方差 为 87. 992% ,SPACA 提取 到 了 13 个 公 因 子 ,总 
解释 总 方差 为 90.767% ( 见 表 5) SPACA 方法 相 较 
于 ACA 提取 到 了 更 多 因子 , 旦 解释 了 稍 多 的 方差 ,这 
初步 说 明 SPACA 的 因子 分 析 结 果 分 布 更 为 合理 ,效果 
优 于 ACA。 


表 5 因子 分 析 概 况 


公 因 子 数量 解释 总 方差 (Total 


给 Ah e 

MAER ( Num of Factors ) variance explained ) 
ACA 相 异 矩阵 9 87. 992% 
SPACA 相 异 矩阵 13 90. 76796 


笔者 进而 对 直接 和 斜 交 旋转 后 产生 的 模式 矩阵 深入 
分 析 。 首 先 对 和 矩阵 中 各 公 因 子 ( 子 领域 ) 所 含 变量 ( 作 
者 ) 进 行 提取 和 统计 ,判断 变量 归属 公 因 子 的 依据 是 载 
荷 大 于 等 于 0.3。 因 此 ,有 部 分 变量 可 归属 于 多 个 公 
因子 ,也 可 不 归属 于 任何 识别 出 的 公 因子 ,这 也 与 图 情 
领域 作者 个 人 研究 方向 多 元 化 的 特点 相似 。 其 次 , 研 
究 对 每 一 公 因 子 下 的 变量 所 代表 的 作者 ,与 该 公 因子 
下 其 他 作者 的 共 被 引 关 系 ( 包 含有 引用 句 和 引用 标 
题 ) 进行 再 提取 ,利用 TF-IDF 算法 提取 每 个 公 因子 的 
特征 词 ,以 客观 地 表征 每 一 公 因子 所 指 代 的 领域 。 

研究 发 现 , 公 因 子 所 代表 的 主题 与 网 络 分 析 结 果 
相似 ,ACA 和 SPACA 均 能 识别 出 包括 A-F 在 内 的 学 科 
一 级 领域 , 除 部 分 因子 间 存 在 有 主题 重合 情况 ,少量 主 
题 未 被 识别 外 ,因子 分 析 与 网 络 分 析 聚 类 结果 能 够 实 
现 一 一 对 应 ,这 也 印证 实验 所 用 分 析 法 的 合理 性 。 具 
体 见 表 6。 

观察 各 公 因 子 信息 表 ( 见 表 6) 及 其 包含 作者 , 笔 
者 有 以 下 发 现 : 

(1) ACA 识别 出 的 公 因 子 F4 与 FS 中 包含 以 王 
波 、 范 并 思 、 李 国 新 、 于 良 芝 等 为 代表 的 22 名 作者 , 主 
要 从 事 图 书馆 管理 方面 研究 ;这 些 作 者 在 SPACA 中 被 
细 分 出 了 阅读 推广 这 一 子 领域 ,王波 . 范 并 思 等 被 归 人 
阅读 推广 研究 领域 (JI7 ) 之 下 。ACA 中 的 了 l 与 F3 中 
包含 以 王 世 伟 、 储 节 旺 马 晓 亭 , 张 兴旺 等 为 代表 的 39 
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表 6 因子 分 析 结果 
ACA SPACA 
领域 主题 
AW 含 作者 数 最 高 载荷 ABT 含 作者 数 最 高 载荷 
A 图 书馆 管理 F4,F5 22 0.924 F4 15 0. 885 
A -1 阅读 推广 F7 10 0.922 
B 智慧 图 书馆 与 新 技术 应 用 F1 ,F3 39 1.053 
B -1 智慧 图 书馆 理论 F2 14 0. 939 
B -2 新 技术 应 用 F5 6 0. 738 
C 科学 计量 与 信息 计量 F7 16 1.016 F10 19 0. 859 
D 情报 学 与 情报 技术 F8 16 0.876 F6, F12 16 0. 768 
D -1 智库 研究 F8 6 0.570 
E 研究 型 图 书馆 学 科 服务 .知识 服务 与 开放 获取 F6 ,F9 21 0.828 F1, F13 11 0.713 
E -3 研究 图 书馆 信息 与 数据 素养 .科研 数据 管理 研究 F11 8 0.758 
F 移动 图 书馆 与 新 媒体 F2 10 1.019 
F - 1 移动 图 书馆 服务 与 技术 F3 20 0. 883 
F9 7 0.631 


TT -2 新 媒体 行为 与 服务 研究 


千 众 首 ,主要 从 事 智慧 图 书馆 与 图 书馆 新 技术 应 用 方 
DUME; MITE SPACA 中 , 王 世 伟 、 储 节 旺 等 被 归 为 智慧 
BRE UE (FA) 作者 ,而 马 晓 亭 、 
技术 应 用 研究 (F7 ) 作 者。 

(2) ACA 识别 出 的 F7 与 SPACA 识别 出 的 F10 相 
RERA UREP 赵 基 英 等 从 事 科学 计量 与 信息 
ERNA. ATIRE FRE 方法 .引用 对 于 整个 
领 咕 来 说 相对 稳定 ,因此 在 图 情 领域 这 一 整体 大 视角 
下 训 果 差异 不 大 。 

SZG) ACA 中 的 F8 包含 李 广 建 \ 包 昌 火 等 在 内 的 情 
报时 情报 技术 研究 者 18 名 ,而 SPACA 除 识别 出 了 这 


长 兴旺 等 被 归 


(5)ACA 中 的 公 因子 F 包含 以 毕 达 天 \ 王 福 在 内 
的 从 事 移动 图 书馆 与 新 媒体 平台 服务 研究 的 作者 。 对 
于 该 领域 , SPACA 识别 出 了 移动 图 书馆 服务 与 技术 
(F3) 和 新 媒体 行为 与 服务 研究 (F9 ) 两 个 细 分 领域 ,前 
者 以 王 福 , 毕 强 为 代表 ,后 者 以 黄 浩 波 ,高 春玲 为 代表 ， 
这 与 网 络 分 析 结 果 类 似 。 这 是 由 于 在 图 情 领 域 的 研究 
中 ,移动 服务 与 社交 媒体 平台 研究 往往 联系 紧密 ,许多 
作者 同时 从 事 两 方面 的 研究 ,因此 传统 方法 难以 区 分 
两 个 子 领域 ,但 SPACA 的 自身 特点 却 使 这 种 细 分 成 为 
可 能 。 


SR Fo F12) 外 ,还 发 现 同属 情报 学 研究 范畴 的 条 
库 狂 完 领域 (F8) ,代表 作者 包括 黄 如 花 、. 吴 育 良 .李纲 
等 。 智 库 研究 这 一 公 因子 最 大 载荷 较 低 ,内 部 变量 在 
其 他 公 因 子 均 有 分 布 载荷 。 这 说 明 在 图 情 领域 内 , 智 
库 研究 是 一 个 新 兴 子 领域 ,目前 其 中 的 学 者 具有 较 强 
的 研究 领域 交叉 性 。 

(4) ACA 中 的 公 因子 F6、F9 所 包含 有 21 名 以 张 
晓 林 、 初 景 利 为 代表 的 从 事 研究 型 图 书馆 知识 服务 研 
究 的 作者 ,这 对 应 于 SPACA 中 的 公 因子 FI \F13 。 而 在 
ACA 的 F6 和 FO 下 由 于 低 载荷 未 被 识别 的 杨 稚 林 、 备 
祥 保 等 作者 被 分 人 信息 素养 和 数据 素养 研究 领域 。 与 
网 络 分 析 结果 不 同 的 是 ,E -1 知识 服务 .E -2 学 科 服 
务工 -4 开放 获取 未 能 被 识别 , 仅 被 归 统 于 SPACA 中 
的 FL 和 F13 所 表征 的 “研究 型 图 书馆 学 科 服 务 .知识 
服务 与 开放 获取 "大 类 中 ,这 是 由 于 这 些 领域 划分 较 
细 , 除 部 分 知名 作者 外 ,其 他 作者 被 引 频次 不 高 ,在 
127 名 核心 作者 中 占 比 低 而 导致 公 因子 特征 值 不 足 。 


综合 实验 结果 ,笔者 得 出 以 下 结论 : 

(1) 笔 者 所 提出 的 SPACA 方法 实现 了 对 作者 间 联 
系 的 更 准确 刻画 。 这 表现 为 :网 络 分 析 中 SPACA 展现 
了 更 明晰 的 节点 聚 类 、 后 期 人 工 检 验 中 更 少 的 不 准确 
分 类 作者 节点 ,这 很 大 程度 上 是 因为 SPACA 计算 中 纳 
入 了 语义 和 位 置信 息 , 以 此 作为 衡量 作者 联系 的 具 
富 内 涵 的 标 度 。 这 种 标 度 更 细 化 地 展现 了 联系 强度 ， 
深入 内 容 语义 层面 ,考虑 了 共 被 引文 献 间 的 联系 及 被 
共 引 作者 间 隐 含 的 主题 相关 性 。 其 有 效 殉 服 了 ACA 
相关 性 度量 指标 单一 、 存 在 作者 联系 强度 与 个 人 出 现 
频次 间 的 次 带 联系 等 天 然 缺 陷 “ ,使 得 两 作者 会 因 被 
引 内 容 的 语义 和 位 置 的 相似 而 聚集 ,而 不 受热 门 主题 
等 带 来 的 共 现 频次 波动 干扰 ,更 符合 现实 情况 。 

(2)SPACA 在 学 科 知识 结构 发 现 中 实现 了 更 细致 
的 子 领域 识别 。 在 本 研究 所 设计 的 控制 变量 条 件 下 ， 
不 论 在 网 络 分 析 还 是 因子 分 析 检 验 中 , 相 比 传统 方法 ， 
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SPACA 都 识别 出 了 更 多 的 子 领域 。 这 一 差距 的 产生 ， 
从 宏观 角度 上 看 ,是 因为 这 些小 型 领域 较 新 或 尚 处 于 
融 汇 发 展 阶段 ,这 些 领 域 所 含 作者 节点 体 量 不 大 ,在 结 
构 上 与 其 他 领域 联系 密切 ,在 主题 上 也 与 其 他 领域 交 
又 密切 ,构成 了 传统 方法 的 “盲点 "。 从 微观 角度 上 
看 ,是 因为 研究 者 们 往往 倾向 于 在 文章 前 段位 置 引用 
领域 权威 学 者 的 知名 论断 作 研 究 铺垫 ( 见 图 17) ,这 导 
致 多 数 形成 的 共 被 引 对 集合 在 实质 上 是 一 种 基于 施 引 
者 个 体 意图 的 弱 连 接 集 , 其 本 质 是 间接 的 ,强度 范围 是 
狭窄 而 模糊 的 ,而 真正 相关 的 连接 却 极 易 被 忽略 。 而 
SPACA 方法 在 考虑 语义 . 语 境 及 位 置 相关 性 的 深层 层 
面 建立 起 集合 内 的 作者 间 的 强 连 接 , 剔除 无 关 的 弱 连 
接 ,使 得 一 些 新 兴 的 、 对 其 他 领域 具 依赖 性 的 小 型 领域 
节能 被 剥离 "出 来 ,在 对 领域 了 解 或 有 专家 辅助 判断 
的 图 作 下 ,甚至 能 够 发 现 学 科 内 的 拓扑 结构 。 
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is 图 17 引用 发 生 的 章节 分 布 
`< 


 @G(3)SpACA 方法 在 面向 大 型 交叉 学 科 时 具有 可 应 
用 狂 与 良好 效果 。 研 究 中 网 络 分 析 与 因子 分 析 结 果 的 
Sp HE RUE. ED ERE , ES] Word2 Vec 词 能 人 模型 可 有 
效应 用 于 社会 科学 领域 和 交叉 学 科 领 域 文本 间 的 内 容 
相似 度 判别 ,这 是 因为 其 构造 了 概念 词汇 间 的 语 境 , 进 
而 语义 上 的 联系 ,使 得 即便 在 术语 复杂 的 领域 仍 具 拓 
展 性 。 同 时 ,实验 证 明了 所 提出 的 研究 流程 能 够 克服 
国内 数据 库 难 用 于 获取 全 文 数据 进行 引文 内 容 分 析 的 
难点 。 

(4) 本 研究 也 存在 着 不 足 ,具体 如 下 :GD 部 分 文献 
暂 未 提供 HTML 页 面 ,虽然 只 占 9% ,但 无 法 排除 导致 
重要 文献 遗漏 的 可 能 ;@ 由 于 所 用 全 文 文本 库 部 分 格 
式 的 不 规范 性 ,以 及 文献 引用 时 的 随意 性 , 少 部 分 引用 
句 抽取 存在 异常 ;@ 模 型 训练 语 料 在 体积 上 仍然 不 够 ， 
此 外 ,即便 模型 在 训练 前 利用 了 领域 关键 词 进行 定 第 
化 分 词 ,但 仍 有 着 被 过 度 细 分 的 词 ,这 些 问 题 使 模型 中 
存在 着 部 分 无 用 的 “噪声 词 ”, 对 结果 产生 了 一 定 干 
扰 ;@ 面 对 从 事 多 领域 .多 方向 研究 的 学 者 ,本 文 的 文 
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笔者 提出 了 一 种 改良 型 作者 共 被 引 分 析 法 
SPACA ,通过 采集 领域 全 文 文本 ,利用 Word2Vec Tix 
人 模型 和 位 置 加 权 相 结合 的 方法 计算 共 被 引 作者 关联 
强度 ,并 与 传统 基于 共 现 频次 的 作者 共 被 引 分 析 法 进 
行 对 比 实验 ,实验 证 明 SPACA 能 更 准确 地 识别 作者 联 
系 ,发 现 更 细致 而 富有 立体 感 的 学 科 子 领域 分 布 , 同 
时 ,也 为 充分 利用 国内 引文 全 文 进行 文献 研究 提供 了 
可 参考 路 径 。 

笔者 认为 ,未 来 的 研究 应 尝试 从 以 下 方面 拓展 :四 
对 引文 的 内 容 语义 和 位 置信 息 做 更 深层 的 挖掘 ,如 纳 
入 本 体 与 概念 图 等 方法 来 表征 更 深层 的 语义 ;@ 纳 人 
更 多 有 意义 的 指标 数据 到 分 析 中 来 (如 强度 .动机 、 情 
Ig) ,并 在 细节 参数 调整 . 聚 类 方法 等 方面 作 更 多 的 优 
化 ;如 思考 引文 内 容 分 析 在 其 他 信息 计量 方法 上 进行 
应 用 和 创新 的 可 能 。 当 下 ,大 学 科 环 境 正 呈现 着 快速 
演化 、 交 又 相 融 等 复杂 态势 ,图 情 学 界 应 对 引文 分 析 方 
法 本 身 的 机 理 作 更 多 的 思考 与 探讨 ,由 仅仅 依赖 于 表 
层 著录 信息 ,转向 对 引文 全 文本 的 充分 挖掘 和 利用 。 

致谢 :感谢 中 国 科 学 院 文献 情报 中 心 袁军 鹏 研究 员 ,成 
都 文献 情报 中 心声 志 萍 研究 员 、 陈 云 伟 研究 员 ,福建 师范 大 
学 图 书馆 学 系 傅 文 奇 教授 ,武汉 大 学 信息 与 管理 学 院 余 凡 博 
士 ,三 位 外 审 专家 及 《图 书 情报 工作 ) 编 辑 部 为 本 研究 提出 
的 宝贵 建议 。 
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»Q Abstract: | Purpose/significance | The author co-citation analysis is an vital method to explore the domain 
(Wowledge structure. In the context of complex development of disciplines, the author’ s relevance measure based on 
.所 co-citation frequency is quite controversial. The study proposed an improved method for author co-citation analysis 
ed on the similarity of content semantics and the proximity of locations. | Method/process | Based on the intro- 
duction of its basic principles, the field of LIS was used as an example to demonstrate the effect of the method , a full- 
text mining of citations for CNKI Chinese journals was conducted, and the citing sentences and reference positions 
were then extracted. Combined with pre-trained domain word embedding models, the deep correlation between the 
co-cited literature and the strength of the connection between the authors were measured. A network analysis and a 
factor analysis were then used to compare the differences on effects between the method and the traditional method. 
| Result/conclusion | The results show that the method can more accurately identify the correlation strength between 

authors, and find more detailed subject knowledge structure, and has a certain scalability and applicability. 
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